ビジネス統計学
(
平成29
年度夏学期)
—
講義用ノート—
谷 口 説 男
(
九州大学 基幹教育院) (
平成29
年5
月17
日版)
0This note is c⃝2017 by Setsuo Taniguchi. It may be used for personal or classroom purposes, but not for commercial purposes.
i
はじめに
統計学の歴史
(http://www.stat.go.jp/teacher/c2epi1.htm
から)•
データの収集“国勢調査”=国の実情を知る…徴兵,徴税,福祉
statistics (英) ⇐ statistik (独) ⇐ status (ラテン=国家・状態)
歴史は古い…古代エジプト,ローマ帝国※
IBM
はもとは国勢調査用紙を作ってた.•
データから規則性を見出す アマゾン,顧客管理,…ICT
の発展で非常に扱いやすくなった♢
ハレー(1956-1742)
:死亡記録から死亡年齢を解析.終身年金価格決定に寄与.
♢
ナイチンゲール(1820-1910):戦死者・傷病者のデータ解析により,治療・
衛生状況が死因であることを見出す
(見やすい円グラフ).
•
確率的事象をとらえる自然科学,工学,耐久検査,品質管理,
数理統計学
(データ) = (真の値) + (誤差)
♢
ドゥ・モワブル(年金論→保険数理)
♢
ベルヌーイ(天然痘の罹病率,死亡率→数理疫学)
♢
オイラー,ラプラス(
フランスの人口推計)
この講義では…
エクセルを使って実際に計算をしてみます.
PC
必携です.必要な資料は
http://www.artsci.kyushu-u.ac.jp/
∼se2otngc/
Contents
1
相関係数1
1.1
相関係数. . . . 1 1.2
散布図. . . . 3
2
単回帰分析4
2.1
単回帰分析. . . . 4 2.2
回帰分析の応用. . . . 6
3
確率論速習10
3.1
確率変数. . . . 10 3.2
確率の求め方. . . . 11 3.3
正規分布. . . . 12
4
差はあるのか?—平均の差の検定14
4.1
検定の考え方. . . . 14 4.2
モデルの導入. . . . 15 4.3
片側検定. . . . 18
5
差はあるのか?—独立性の検定20
5.1
サンドイッチの嗜好. . . . 20
5.2
ピアソンのχ
2(カイ二乗)
独立性検定. . . . 21
5.3
適合度検定. . . . 22
6
組み合わせで売れ行きは変わる?—交互作用の検定24
6.1
はじめに. . . . 24
6.2
グラフでは. . . . 24
6.3
分散分析—交互作用. . . . 24
1
相関係数1
1.
相関係数1.1.
相関係数1.1.1.
データの例最高気温 平均気温 最低気温 アイスクリーム売上げ
1
月9.9 6.6 3.5 780
2
月11.1 7.4 4.1 950
3
月14.4 10.4 6.7 1280
4
月19.5 15.1 11.2 1255
5
月23.7 19.4 15.6 1290
6
月26.9 23 19.9 1650
7
月30.9 27.2 24.3 2000
8
月32.1 28.1 25 2430
9
月28.3 24.4 21.3 1200
10
月23.4 19.2 15.4 1150
11
月17.8 13.8 10.2 1210
12
月12.6 8.9 5.6 1045
1.1.2.
データの一般形(x
1, y
1), . . . , (x
n, y
n)
• (1
月最高気温,1
月売上げ), . . . ,(12
月最高気温,12
月売上げ)• (1
月平均気温,1
月売上げ), . . . ,(12
月平均気温,12
月売上げ)• (1
月最低気温, 1
月売上げ), . . . , (12
月最低気温, 12
月売上げ) 1.1.3.
相関係数を決めるための量S
xx=
∑
n i=1(x
i− x
n)
2, S
xy=
∑
n i=1(x
i− y
n)(y
i− y
n),
S
yy=
∑
n i=1(y
i− y
n)
2,
ただし,xn
= x
1+ · · · + x
nn , y
n= y
1+ · · · + y
nn ,
1.1.4.
相関係数r
xyr
xy= S
xy√ S
xx√ S
yy1.1.5.
図形的にはn = 2
とする.⃗a = (x
1− x, x
2− x), ⃗b = (y
1− y, y
2− y)
とおけば,S
xy= ⃗a · ⃗b, S
xx= ∥ ⃗a ∥ , S
yy= ∥ ⃗b ∥ .
したがって,θ= ⃗a
と⃗b
のなす角 とするとr
xy= ⃗a · ⃗b
∥ ⃗a ∥ ∥ ⃗b ∥ = cos θ
となる.したがって,
r
xyはデータの散らかり方が「どれだけ同じ向きを向いてい るか?」を表す指標である.1.1.6. (a) y
1= x
1, . . . , y
n= x
nならば,rxy= 1.
(b) y
1= − x
1, . . . , y
n= − x
nならば,rxy= − 1 (c) y
i= ax
i+ b
ならば,r
xy=
{
1 (a > 0)
− 1 (a < 0) . 1.1.7. x
とy
に強い関係があってもr
xy= 1
とはならない.例
x
1, . . . , x
10, y
1, . . . , y
10, y
i= x
4i のときX 9 8 7 10 13
Y 6561 4096 2401 10000 28561
X 11 9 8 12 9
Y 14641 6561 4096 20736 6561 r
xy= 0.972
♠
エクセルで確かめてみよう! 1.1.8.
エクセルでやってみるには• S
xxは関数VAR.P([x
の範囲])*(データの個数)で求まる.• S
yyは関数VAR.P([y
の範囲])*(データの個数)で求まる.• S
xyは関数COVARIANCE.P([x
の範囲],[yの範囲])*(データの個 数)
で求まる.• r
xyは[S
xy]/(SQRT([S
xx])*SQRT([S
yy]))
で求まる.注:[Sxy
]
はS
xyの値を求めたセルを表わす•
より簡単にr
xyはCORREL([x
の範囲],[y
の範囲])
としても求まる.注意
1
:VAR
はvariance
の略であり,CORREL
はcorrelation
の略で ある.注意
2: .P
というおまじないは「population」に由来している.エクセル には,もう一つ,.Sがつくものもある.こちらは「sample」に由来してお り,「不偏」という名の付くものと対応している.1
相関係数3
1.1.9.
気温とアイスクリーム売上げの相関係数最高気温
0.980
,平均気温0.974
,最低気温0.958
♠
エクセルで確かめてみよう1.2.
散布図視覚的に見るには,エクセルの「散布図」を使ってみるとよい.
♠
データ領域を選択し,「挿入」→「グラフ」→「散布図」と選べばよい.2.
単回帰分析2.1.
単回帰分析2.1.1.
問題 平均気温とアイスクリームの売り上げの関係をより詳しく説明したい.たとえば,気温
20
度ならどの程度アイスクリームは売れるのか?平均気温 アイスクリーム売上げ
6.6 780
7.4 950
10.4 1280
15.1 1255
19.4 1290
23 1650
27.2 2000
28.1 2430
24.4 1200
19.2 1150
13.8 1210
8.9 1045
2.1.2.
アイディア 散布図に上手に直線y = ax + b
を引いてx = 20
を代入する!a, b
はどう求める?
2.1.3.
回帰直線(x
1, y
1), . . . , (x
n, y
n)
をデータとする.x = x
1+ · · · + x
nn , y = y
1+ · · · + y
nn ,
S
xy=
∑
n i=1(x
i− x)(y
i− y), S
xx=
∑
n i=1(x
i− x)
2, b
a = S
xyS
xx, b b = y − b a x
2
単回帰分析5
とおくと,
a = b a
,b = b b
が求めるa, b
である.直線
y = b ax + b b
を回帰直線と呼ぶ.2.1.4.
最小二乗法Q(a, b) =
∑
n i=1{ y
i− (ax
i+ b) }
2(
残差)
を最小にする.つぎの事実を使って変形していく:
(
通常の統計の教科書に書 いてある「偏微分」を使う説明は“
数学的には難しい”)
S
xx= ∑
i
{ x
2i− 2xx
i+ (x)
2} = ∑
i
x
2i− 2nx
2+ nx
2= ∑
i
x
2i− nx
2, S
xy= ∑
i
{ x
iy
i− xy
i− yx
i+ xy } = ∑
i
x
iy
i− nxy − nxy + nxy
= ∑
i
x
iy
i− nx y, S
yy= ∑
i
y
i2− ny.
変形は,つぎの通り:
∑
i
{ y
i− (ax
i+ b) }
2= ∑
i
(y
i− ax
i− b)
2= ∑
i
{ y
i2+ x
2ia
2+ b
2− 2x
iy
ia + 2x
iab − 2y
ib }
= nb
2+ 2n(xa − y)b + (∑
i
x
2i)
a
2− 2 (∑
i
x
iy
i) a + ∑
i
y
2i= n { b + (xa − y) }
2− n(xa − y)
2+ (∑
i
x
2i)
a
2− 2 (∑
i
x
iy
i)
a + ∑
i
y
i2= n { b + (xa − y) }
2+ (∑
i
x
2i− nx
2)
a
2− 2 (∑
i
x
iy
i− nx y )
a + ∑
i
y
2i− ny
2= n { b + (xa − y) }
2+ S
xxa
2− 2S
xya + S
yy= n { b + (xa − y) }
2+ S
xx( a − S
xyS
xx)
2− S
xy2S
xx+ S
yy.
二つの( · · · )
2の項が0
となるときが最小である.2.1.5.
エクセルでa, b
を求める1)
実際にS
xx, S
xy, x, y
を計算してみる.(手間がかかる.)• S
xxはVAR.P([x
の範囲])*(
データの個数)
• S
xyはCOVARIANCE.P([x
の範囲],[yの範囲])*(データの個数)• x
はAVARAGE([x
の範囲])
• y
はAVARAGE([y
の範囲])• a = [S
xy]/[S
xx],b = [y] − [a] ∗ [y]
注:[
· ]
はそれぞれの値を計算したセルを表わす.2)
エクセルの直接的な関数をつかう.• a
はINTERCEPT([y
の範囲],[xの範囲])• b
はINTERCEPT([y
の範囲],[xの範囲])3)
グラフに直線を引く!
「散布図」
-「近似曲線」 -
「その他のオプション」「グラフに数式を表示する」2.1.6.
最高気温でやってみよう2.2.
回帰分析の応用2.2.1.
トレンド分析損保会社の累積支払保険金の増加の様子
(トレンド)
を線形回帰する.1 2 3 4 5 6 7 8 9 10
117 208 335 433 538 701 803 857 966 1176
○ 回帰直線
y = 113.4545x − 10.6
○
11
年目の累積支払保険金:1237.4
○
11
年目に支払うであろう金額:1237.4 − 1176 = 61.4
2
単回帰分析7
○ やってみよう
1 2 3 4 5 6 7 8 9 10
239 476 719 953 1259 1500 1528 1673 2235 2375 2.2.2.
ロジスティック回帰(もどき)
市場での占有率は,技術進展を繰り返せばどんどん上がるが当然
100%
を超 えない;○
y = 1
1 + e
ax+b という形(ロジスティック)
をしている.※ 一般のロジスティック回帰では分子は
1
でなく未知のK
となっており,これを求めることも問題となる.
○ このデータは次の通り:
1 2 3 4 5
0.006425725 0.011929039 0.013588838 0.031338532 0.040913811
6 7 8 9 10
0.05212115 0.080896291 0.135832283 0.15159588 0.237454253
11 12 13 14 15
0.297813165 0.341376055 0.520958623 0.545791293 0.627789932
16 17 18 19 20
0.719939233 0.802076416 0.859232933 0.908140584 0.942957833
21 22 23 24 25
0.950664594 0.965184638 0.979148139 0.986842793 0.992209042
26 27 28 29 30
0.992894015 0.996895595 0.997354583 0.998558411 0.998587263
○
z = ln ( 1
y − 1
)
と変形し,z= ax + b
という回帰曲線を求める.※
ln x
はx = e
zとなるz
を表す.エクセルではLN
を用いる.※ エクセルで
LOG
はlog
10のこと.○
a = 0.404, b = 5.291
となる.よって,ロジスティック回帰曲線はy = 1
1 + e
−0.404x+5.291 となる.○ やってみよう
1 2 3 4 5
0.064790694 0.090423841 0.111418814 0.142571342 0.211331758
6 7 8 9 10
0.288737166 0.355482215 0.368020098 0.533691118 0.589594203
11 12 13 14 15
0.606063121 0.753918853 0.824012705 0.857759485 0.891809752
16 17 18 19 20
0.923783022 0.892751872 0.938201537 0.97154412 0.981719392
2.2.3.
多項式回帰過去
10
年間の累積支払保険金の半年ごとの額は次のようになっていた.0.5 1 1.5 2 2.5 3 3.5
5.06 6.23 8.65 13.32 17.98 23.13 30.19
4 4.5 5 5.5 6 6.5 7
36.47 50.27 59.37 73.24 86.27 101.47 103.06
7.5 8 8.5 9 9.5 10
125.92 139.58 160.08 184.41 192.1 225.37
グラフに書いてみると2
単回帰分析9
データは
2
次関数的に増加していっているように見える.あてはまる回帰 曲線はy = ax
2+ b
のような2
次関数かもしれない.※ 一般の多項式関数での近似は多重回帰分析が必要になる.
○
z = x
2を導入し,y = az + b
となる回帰直線を求める.○
a = 2.16, b = 4.56
であり,y= 2.16x
2+ 4.56
が求める回帰曲線となる.○ やってみよう
1 2 3 4 5 6 7
7.24 22.85 47.88 82.42 132.77 185.15 256.24
8 9 10 11 12 13 14
324.32 410.69 521.63 618.1 757.69 888.11 1024.46
15 16 17 18 19 20
1137.92 1283.49 1460.3 1654.67 1844.63 2091.71 2.2.4.
その他の関係(a) y = bx
a →ln y = ln b + a ln x (b) y = b exp(ax)
→ln y = ln b + ax
(c) y = b + a ln x (d) y = x
bx + a
→1
y = b + a 1 x (e) y = 1
ax + b
→1
y = ax + b (f) y = a + b
x
(g) y = exp(a + bx)
1 + exp(a + bx)
→ ロジスティック(
もどき)
3.
確率論速習3.1.
確率変数3.1.1.
違うものですか?・1枚のコインを投げて「裏,表」を見る
・赤玉,白玉
10
個ずつが入った袋から玉を抜き出し「赤,白」を見る ・サイコロを投げて出目が「奇数,偶数」を見る♢
「目くらまし」からベールをはぎ取る⇒二種類のものを代表するのは「
0
,1
」⇔「数字」3.1.2.
確率変数X :
知りたいのは確率:a
より小さいという事象{ X ≦ a }
の確率P(X ≦ a) 3.1.3.
【例】(a)
コイン投げ;Xは表が出たとき0,裏が出たとき 1
とする.P(X ≦ a) =
0 (a < 0)
1
2
(0 ≦ a < 1) 1 (a ≧ 1) (b)
サイコロの出た目X;
P(X ≦ a) =
0 (a < 1)
1
6
(1 ≦ a < 2)
2
6
(2 ≦ a < 3)
3
6
(3 ≦ a < 4)
4
6
(4 ≦ a < 5)
5
6
(5 ≦ a < 6) 1 (a ≧ 6)
(c)
鉛筆を回しy
軸となす角度X;
P(X ≦ a) =
2πa(0 ≦ a ≦ 2π) 3.1.4.
なぜ確率変数?(a) (データ)=(真の値)
+“誤差”
(b) “誤差”
をどう扱う? ⇒ 値の様子の確からしさは分かる(c)
「確からしさは分かる」=モデルを立てて議論する最小の前提3
確率論速習11
3.2.
確率の求め方3.2.1.
確率は面積 確率は全体の面積が1
の図形にに占める事象の面積.3.2.2.
積分P(X ≦ a) =
∫
a−∞
f (x)dx
(a)
積分(1)
グラフy = f (x)
の囲む面積∫
a bf (x)dx =
緑の領域の面積 計算方法:幅の狭い長方形で近似する∑
n k=1f (
(a−nb)k) × a − b n
n
−→
→∞∫
a bf (x)dx (b)
積分(2)b → ∞
∫
a bf (x)dx
b−→
→∞∫
a−∞
f (x)dx
3.3.
正規分布3.3.1.
正規分布g(x; µ, σ) = 1
√ 2πσ
2e
−(x−µ)22σ2 とおく.P(X ≦ a) =
∫
a−∞
g(x; µ, σ)dx
となるとき,確率変数X
は平均µ
,分散σ
2 の正規分布にしたがうという(記号 X ∼ N (µ, σ
2)).
3.3.2.
身近なe
x 年利x
で預金.年n
回の利息(複利).1
年後には(
1 + x n
)
n倍
n → ∞
とする(連続複利)
とe
xエクセルで試してみよう! (EXP(x)との比較)
x 1 0.1 0.3 4
exp(x) 1 5 .. .
100,000,000
3
確率論速習13
3.3.3.
標準化X ∼ N(µ, σ
2)
ならば,X − µ
σ ∼ N(0, 1) ( ∵ )
簡単な変数変換です…P
( X − µ
σ ≦ a
)
= P(X ≦ µ + σa) =
∫
µ+σa−∞
√ 1
2πσ
2e
−(x−µ)22σ2dx
=
∫
a−∞
√ 1 2π e
−y2 2
dy
(
y = x − µ σ
) . 3.3.4.
エクセルで計算するには…X ∼ N (0, 1)
のとき;(a) P(X ≦ a) = NORM.S.DIST(a,TRUE)
(b) P(X ≦ a) = α
となるa; a = NORM.S.INV(α)
4.
差はあるのか?—
平均の差の検定4.1.
検定の考え方4.1.1.
問題• 2
種類の工程でX
工程,Y工程で製品を作る.• Y
工程の方が経費が掛かる.• X
工程で100
個,Y工程で80
個試作してみた.• X
工程で作った製品の平均寿命は1
万時間,Y工程で作った製品の平 均寿命は1
万1
千時間であった.もし,この
1
万時間と1
万1
千時間に「差がない」と言えるならば,Y
工 程を採用できる.4.1.2.
アプローチ(a) “平均の差は 0
という仮定”をおく.(b)
確からしさ95%で考えることにする.
(c) | “平均の差”
から作られる量| ≦ a
となる確からしさが95%となる a
を見つける.(d) |
平均の差11000 − 10000 = 1000
から作られる量| > a
⇒
5%しか起きないことが起きている
⇒ 仮定が間違っている ⇒ 「差はある」
※ 背理法もどき
;
「√
2は有理数でない.」√
2は有理数と仮定する.すると,√
2 =pq (p, qは1以外に共通の 約数を持たない)と表現できる.両辺を二乗すると2 =pq22 となる.q2倍すれば,2q2=p2 である.これよりpは2を約数として持つ.よって,p= 2rと表現できる.これを代入する と,2q2= 4r2となる.両辺を2で割ると,q2= 2r2を得る.これよりqは2を約数として 持つ.以上より,pとqは共通の約数2を持つ.これは矛盾である.よって,√
2は有理数で はない.
4.1.3.
統計学の言葉では(a)
帰無仮説H
0(b)
有意水準α;確からしさ 1 − α
で考える(c)
どのようなモデルを考えるかによる(d)
帰無仮説を棄却する4
差はあるのか?—平均の差の検定15
4.2.
モデルの導入4.2.1.
モデルX
工程の試作品の個々の寿命X
1, . . . , X
100,Y工程の試作品の個々 の寿命Y
1, . . . , Y
80はX
i= (真の寿命) + (誤差)
i= µ
X+ e
iY
j= (
真の寿命) + (
誤差)
j= µ
Y+ E
jとなっている.
さらに,
e
1, . . . , e
100, E
1, . . . , E
80は独立で∼ N(0, σ
2)
.4.2.2.
正規分布にかかわる事実(a) U ∼ N(µ
U, σ
U2),V ∼ N (µ
V, σ
V2)
独立⇒
U + V ∼ N (µ
U+ µ
V, σ
2U+ σ
V2)
(b) W ∼ N (µ, σ
2)
⇒aW ∼ N (aµ, a
2σ
2), W − µ
σ ∼ N (0, 1) (c) Z
1, . . . , Z
n(独立, ∼ N (µ, σ
2))
⇒Z
n= Z
1+ · · · + Z
nn ∼ N
( µ, σ
2n )
4.2.3. X
工程,Y工程ならばX
100∼ N (
µ
X, σ
2100
)
, Y
80∼ N (
µ
Y, σ
280 ) X
100− Y
80∼ N
(
µ
X− µ
Y, σ
2( 1
100 + 1 80
)) . (a)
帰無仮説『H0;µX= µ
Y』の下ではX
100− Y
80∼ N (
0, σ
2( 1
100 + 1 80
))
∴ X
100− Y
80√ σ
2( 1 100 + 1
80
) ∼ N(0, 1)
[標準正規分布にかかわる事実] Z ∼ N(0, 1)
のとき,P( | Z | ≦ a) = Φ(a) − Φ( − a) = 2Φ(a) − 1
ただしΦ(a) =
∫
a−∞
√ 1 2π e
−x2 2
dx.
(b)
有意水準α
に対するa
は,1 − α = 2Φ(a) − 1
を解いて,Φ(a) = 1 − α 2
(
a = NORM.S.INV(1 −
α2)
)
有意水準
5%=0.05
ならば,a = NORM.S.INV(0.975) = 1.96
である.よって,
X
100− Y
80√ σ
2( 1 100 + 1
80 )
≦ 1.96
が
95%
の確からしさで起きる.(d) σ
2は?
既知とすれば,たとえば,
σ
2= 100
であれば,X
100− Y
80√ 100
( 1 100 + 1
80 )
≦ 1.96
が
95%
の確からしさで起きる.実際のデータでは
X
100− Y
80= 1000
であるから,(左辺) = 666.7となり,1.96
よりはるかに大きい.よって帰無仮説は棄却される=平均寿命は異なる.
4.2.4.
一般に(σ
2が既知のとき)• X
群の標本数はn
X,標本平均はX = AVERAGE([x
の範囲]).• Y
群の標本数はn
Y,標本平均はY = AVERAGE([y
の範囲])•
帰無仮説H
0;X群とY
群の『真の平均値』は同じ•
有意水準をα
を決める•
X − Y
√ σ
2( 1 n
X+ 1 n
Y)
> NORM.S.INV(1 −
α2)
ならば,帰無仮説を棄却する(=
X
群とY
群の平均値は同じでない).4.2.5.
有意水準=
危険率有意水準
0.05(5%)
で棄却するということは,5%しか起きないことが起きているので,帰無仮説は正しくないとすることである.したがって,『5%の 誤り』を内包している.
4
差はあるのか?—平均の差の検定17
4.2.6.
やってみようn
AX
An
BY
Bα σ
2| · · · | NORM.S.INV
棄却100 220 200 219.6 0.05 1
100 220 200 219.6 0.1 1 100 220 200 219.6 0.01 1 100 220 200 219.7 0.05 1 100 220 200 219.7 0.1 1 100 220 200 219.7 0.01 1 100 220 200 219.76 0.05 1 100 220 200 219.76 0.1 1 100 220 200 219.76 0.01 1
絶対値はABS(x)
4.2.7. σ
2が未知の場合• X
群の標本数はn
X,標本平均はX = AVERAGE([x
の範囲]).• Y
群の標本数はn
Y,標本平均はY = AVERAGE([y
の範囲])
•
帰無仮説H
0;A群とB
群の真の平均値は同じ•
有意水準をα
を決める•
t
X,Y= X − Y
√
S
XX+ S
Y Yn
X+ n
Y− 2
( 1 n
X+ 1 n
Y)
とおく.ただし,
S
XX=
nX
∑
i=1
(X
i− X )
2= VAR.P([x
の範囲])× n
XS
Y Y=
nY
∑
j=1
(Y
j− Y )
2= VAR.P([y
の範囲])× n
Y.
•
もし| t
X,Y| > T.INV.2T(α, n
X+ n
Y− 2)
ならば,帰無仮説を棄却する(=
X
群とY
群の平均値は同じでない).4.2.8. What’s behind! — t-
分布(a)
重要な事実:帰無仮説の下でt
X,Y は自由度n
X+ n
Y− 2
のt-分布に
従う.(b) W
が自由度n
のt-分布に従うとは,
P(W ≦ a) =
∫
a−∞
√ 1
n B(
n2,
12) 1
(1 +
xn2)
n+12dx = T
n(a)
ただし,
B(a, b) =
∫
1 0x
a−1(1 − x)
b−1dx.
グラフにしてみると
(c)
ならば,考え方は前と同じ.P( | t
X,Y| ≦ a) = T
nX+nY−2(a) − T
nX+nY−2( − a) = 2T
nX+nY−2(a) − 1
から,1 − α = 2T
nX+nY−2(a) − 1
を解けばよい.この解
a
はエクセルの関数を用いて次のように求めら れる;
a = T.INV(1 − α
2 , n
X+ n
Y− 2) = T.INV.2T(α, n
X+ n
Y− 2).
4.2.9.
例題有意水準
0.01, 0.05, 0.1
X; 581, 700, 597, 534, 596, 582, 538, 588, 581, 539 Y; 543, 510, 580, 520, 506, 550
4.2.10.
やってみよう有意水準
0.01, 0.05, 0.1
X; 53, 59, 51, 58, 57, 55, 53, 56, 54, 51, 54, 60 Y; 58, 57, 58, 60, 58, 56, 58, 57, 56, 55 4.3.
片側検定4.3.1.
大小関係ありそうなときの検定先の考察は『X工程の平均値=Y 工程の平均値』について判定した.たと えば,Y 工程の方が新鋭機械を使っているため,µX
≤ µ
Y となっている可 能性が高いと予想できたとしよう.このとき,σ2が既知の場合も未知の場 合も,X− Y ≤ 0
となっている可能性が高いと思われる.すなわち,X− Y
は0
を中心に対称に正負に散らばるのではなく,負側に偏っていることが 予想される.ならば,| X − Y | > a
を評価するよりもX − Y > a
を評価し たほうが精度が上がるはずである.このような検定を片側検定と呼んでいる.なお,先のような絶対値の入っ た検定は両側検定と呼ばれている.
4.3.2.
検定の実行(a)
帰無仮説『H
0;µ
X= µ
Y』(b) σ
2が既知の場合はP
( X − Y
√ σ
2( 1 n
X+ 1 n
Y) ≤ a )
= Φ(a) =
∫
a−∞
√ 1 2π e
−x2 2
dx
4
差はあるのか?—平均の差の検定19
という関係式を,
σ
2が未知の場合はP
( X − Y
√ S
XX+ S
Y Yn
X+ n
Y− 2 ( 1
n
X+ 1 n
Y) ≤ a )
= T
nX+nY−2(a)
という関係式を用いる.それぞれの場合に応じて,有意水準
α
に対するa (α
への依存を表すためa(α)
と表記する)はΦ(a) = 1 − α, T
nX+nY−2(a) = 1 − α
を解いて得られるa(α) = NORM.S.INV(1 − α), a(α) = T.INV(1 − α, n
X+ n
Y− 2)
である.データから得られる値をこの
a(α)
と比較して棄却するかどうかを決める;X − Y
√ σ
2( 1 n
X+ 1 n
Y) > a(α), X − Y
√ S
XX+ S
Y Yn
X+ n
Y− 2 ( 1
n
X+ 1 n
Y) > a(α)
ならば棄却する.
5.
差はあるのか?—
独立性の検定5.1.
サンドイッチの嗜好5.1.1.
問題男性,女性に好きなサンドイッチを選んでもらった結果次のようになった.
性別による嗜好の差があるといえるだろうか
?
卵サンド カツサンド 野菜サンド ハムサンド
男性
20 32 24 28
女性
28 18 30 20
※このような表をクロス集計表という.
5.1.2.
安直に棒グラフを書いて比べてみる.
5.1.3.
もう少し説得力を•
調査を受けた人は200
人(
男性104
人,女性96
人)
∴
男性の割合は104
200
,女性の割合は96
•
卵,カツ,野菜,ハムが好きな人はそれぞれ200 48,50,54,48
人∴
卵,カツ,野菜,ハムが好きな人の割合はそれぞれ48
200
,50 200
,54
200
,48 200
•
もし『男女に嗜好の差がない』のなら,男性で卵サンドが好きな人は200 × 104
200 × 48
200 = 24.96 (下図)
5
差はあるのか?—独立性の検定21
•
このときの差24.96 − 20 = 4.96
が『嗜好に差がない』という仮定と のズレである.したがって,このような差の二乗の総和が“
小さい”
な ら,『嗜好に差がない』という仮定を認められる.5.2.
ピアソンのχ
2(カイ二乗)
独立性検定5.2.1.
一般の場合• M
種類のグループA
1, . . . , A
M について,N
種類の性質B
1, . . . , B
Nへのグループによる相関の違いがあるかどうかを調べる.
• n
個のサンプルデータをクロス集計表に整理する.B
1B
2· · ·
B
NA
1S
11S
12S
1N.. .
A
MS
M1S
M2S
M N•
p
i= S
i1+ · · · + S
iNn , q
j= S
1j+ · · · + S
M jn χ
2=
∑
M i=1∑
N j=1(S
ij− np
iq
j)
2np
iq
j とおく.※ クロス集計表に小計セルと
p
i, q
jセルを作るとよい.B
1B
2· · ·
B
N 計p
iA
1S
11S
12S
1NS
1Ap
1.. .
A
MS
M1S
M2S
M NS
MAp
M計
S
1BS
B2S
NBq
jq
1q
2q
N•
有意水準をα
に対し,χ
2> CHISQ.INV(1 − α, (M − 1)(N − 1))
ならば,確率α
でしか起きない事象が起きている.⇒ 棄却
=
グループ間に性質B
の差はある.5.2.2.
サンドイッチではM = 2,N = 4
である.クロス集計表を作って計算するとχ
2= 6.94
となる.
CHISQ.INV(0.9, 3) = 6.25,
CHISQ.INV(0.95, 3) = 7.81
,CHISQ.INV(0.99, 3) = 11.3487
であるから,有意水準
0.1
ならば棄却されるが,有意水準0.05
,0.01
では 棄却されない.5.2.3. What’s behind!—カイ二乗分布
(a)
帰無仮説A
1, . . . , A
M とB
1, . . . , B
N は独立である.(グループ間に性 質B
の差はない).(b) n
が大きければ,χ
2は自由度(M − 1)(N − 1)
のカイ二乗分布に従う(c)
自由度k
のカイ二乗分布P(χ
2≦ a) =
∫
a 0√ 1 2
kΓ(
k2)
x
k−22e
−x2 2
dx.
ただし,
Γ(y) =
∫
∞0
x
y−1e
−xdx.
※ グラフを描いてみよう
(d)
有意水準α
に対し,a= CHISQ.INV(1 − α, k)
は,P(χ
2≦ a) = 1 − α
を満たす.検定の枠組みに入った!
5.2.4.
やってみよう春 夏 秋 冬
10
代25 48 33 28 30
代35 35 27 36 50
代40 28 43 22 5.3.
適合度検定5.3.1.
問題これまで卵サンド,カツサンド,野菜サンド,ハムサンドの売り上げの比は
3:2:3:2
であった.新規商品に置き換えて1000
個を試験的に売り出したところ,それぞれ
280,215,314,191
個売れた.以前通りの売り上げ比だと いってよいだろうか?5.3.2.
安直にクロス集計表を拡張して見比べてみる;
5
差はあるのか?—独立性の検定23
卵 カツ 野菜 ハム
280 215 314 191
予想比率0.3 0.2 0.3 0.2
予想売上300 200 300 200 5.3.3.
統計的手法•
性質B
1, . . . , B
N の起きる割合がp
1, . . . , p
N となっているかどうかを 調べる.• n
個のサンプルについて,Biの起きた度数を数え上げ,クロス集計表 を作成する.B
1B
2· · ·
B
NX
1X
2X
N•
χ
2=
∑
N i=1(X
i− np
i)
2np
iとおく.
※
N
が大きければ,χ2は自由度N − 1
のカイ二乗分布に従う.•
有意水準α
に対し,χ
2≦ CHISQ.INV(1 − α, N − 1)
ならば,帰無仮説を棄却しない!=起きる割合は
p
1, . . . , p
Nであると考 える.※ 『棄却しない』ことが重要.
※ 推論としては弱い;『a2
= 4
とする.もしa = 2
ならば,a2= 4
である.よって,a
= 2
である』という論法.5.3.4.
サンドイッチの場合N = 4
なので自由度は3
.χ
2= 3.51
で,
CHISQ.INV(0.9, 3) = 6.25
CHISQ.INV(0.95, 3) = 7.81
CHISQ.INV(0.99, 3) = 11.34
なので,すべて棄却されない.5.3.5.
やってみようこれまで卵サンド,カツサンド,野菜サンド,ハムサンド,ミックスサンド の売り上げの比は
2:1:2:2:3
であった.新規商品に置き換えて1000
個を試験 的に売り出したところ,それぞれ210,90,190,190,320
個売れた.以前 通りの売り上げ比だといってよいだろうか?6.
組み合わせで売れ行きは変わる?—
交互作用の検定6.1.
はじめに豚骨ラーメン店で、スープの濃さが普通で大きなチャーシューを
2
枚載せたものが 一番よく売れるのではないか、という話が出た。そこで実際二日にわたってスー プの濃さ、チャーシューの量を変えて売り上げを調べてみたところ、次のような 結果となった。大
1
枚 小2
枚 小3
枚 大2
枚 濃い93 95 97 94
95 104 106 101
普通
93 97 107 120
92 91 95 115
薄い
94 97 99 104
100 94 101 107
さて、スープの濃さが普通で大きなチャーシューを
2
枚載せたものが一番よ く売れるといえるだろうか?6.2.
グラフでは確かに、とくに売れるように見える。
数値で説明できるだろうか?
6.3.
分散分析—交互作用6.3.1.
要因 結果に影響を及ぼす二つの要因A,B
を考える.それぞれを因子という.
上の例では,スープが因子
A
であり,チャーシューが因子B
となる.6.3.2.
水準 因子は,いくつかの値をとり,これを水準という.上の例では,因子
A
は「濃い,普通,薄い」の3
水準を,因子B
は「大1
枚,小2
枚,小3
枚,大2
枚」の4
水準をもっている.6
組み合わせで売れ行きは変わる?—交互作用の検定25
6.3.3.
データ因子A
はA
1, . . . , A
aのa
個の水準,因子B
はB
1, . . . , B
bのb
個の 水準をもつとし,それぞれの水準の組み合わせでr
回繰り返してデータを とったとする.このとき,A
iかつB
jという組み合わせでのデータは,x
ij1, x
ij2. . . , x
ijrの
r
個である.6.3.4.
データ平均次のように定義する.